Processus de décision markoviens (MDPs)¶

Les processus de décision markoviens (ou MDPs en anglais) constituent les bases-mêmes du reinforcement learning.

Comme dit dans l’introduction, le but d’un agent intelligent est de prendre une décision et, si possible, une décision bénéfique pour l’agent, c’est-à-dire une décision rapprochant l’agent de l’objectif spécifié.

Eléments d’un MDP¶

Un MDP comprend plusieurs éléments à savoir:

Un agent
Un environnement
Des états (observations de l’environnement)
Des actions
Des récompenses

Ainsi, l’agent interagit avec l’environnement dans lequel il se trouve par le biais d’actions qui modifient l’état actuel et engendre une récompense en fonction du nouvel état acquis.

https://www.kdnuggets.com/images/reinforcement-learning-fig1-700.jpg

Fig. 9 Schéma d’un MDP.¶

Ce processus de sélection d’une action \(a\) à partir d’un état \(s\) pour transitionner vers un nouvel état \(s'\) en recevant une récompense \(r\) survient de manière séquentielle, c’est-à-dire, le processus se répète et retourne un item appelé trajectoire.

Une trajectoire est composée de telle sorte : \((s, a, r, s')\)

Ainsi, le but de l’agent est de maximiser les récompenses cumulatives obtenues de par ses interactions avec l’environnement.

Notation formelle¶

Tout ce que l’on vient d’énoncer peut être écrit de manière plus formelle afin d’écrire des formules pour calculer la récompense \(r\) pour une action \(a\) et un état \(s\) à un instant \(t\).

Les états forment un ensemble fini d’états noté \(S\), de même pour l’ensemble d’actions \(A\) et l’ensemble des récompenses \(R\).

On dit que pour chaque instant \(t\), l’agent reçoit une représentation de l’environnement noté \(S_{t} \in S\) et l’agent prendra une action \(A_{t} \in A\). On a donc notre couple \((S_{t}, A_{t})\) qui va nous permettre de calculer la récompense pour le prochain état \(S_{t+1}\).

Un MDP fait l’hypothèse qu’un agent peut prendre les actions optimales \(A_t\) en se basant uniquement sur l’état courant \(S_t\) (sans l’information des états précédents). Cette hypothèse est valide dans beaucoup de cas, comme par exemple au jeu d’echec (le plateau donne toutes les informations nécessaires pour trouver le coup optimal). Elle peut être invalide dans certaines situations, où l’observation de l’environnement \(S_t\) manque d’information qui a pu être obtenue auparavant. Par exemple, on peut penser à un FPS, où la vue en première personne ne permet pas de voir l’ensemble du monde qui entoure le joueur. Naturellement, un joueur va retenir ce qu’il a observé dans le passer pour se construire une représentation mentale du monde dans lequel il joue.

Si l’on veut se replacer un instant dans le schéma présenté plus haut:

L’agent reçoit une représentation de l’environnement (\(S_{t}\)):

Fig. 10 Réception d’un état \(S_t\).¶

L’agent prend une action (\(A_{t}\)) en fonction de \(S_{t}\):

Fig. 11 Envoie d’une action \(A_t\).¶

La récompense \(R_{t}\) n’est calculée que lors du prochain état.

C’est-à-dire \(R_t = f(A_{t-1}, S_{t-1})\) ou \(R_{t+1} = f(A_{t}, S_{t})\). C’est l’environnement qui spécifie lui-même le comportement de la fonction \(f\) qui calcule la récompense. Notez que cette fonction est inconnue pour l’agent qui va jouer avec l’environnement, son but est justement de mieux la saisir pour maximiser son gain (on en parle en dessous).

L’agent reçoit donc la récompense \(R_{t+1}\) calculée à partir du couple \((S_{t}, A_{t})\):

Fig. 12 Réception d’une récompense \(R_{t+1}\).¶

Et l’agent entre dans un nouvel état \(S_{t+1}\) (i.e. une nouvelle représentation de l’environnement actualisé) dans lequel il aura encore à choisir une action parmi l’ensemble \(A\). De la même façon que pour les récompenses \(R\), l’agent ne connait généralement pas la fonction de transition qui a permis de passer de \(S_t\) à \(S_{t+1}\). C’est à lui de comprendre le comportement de l’environnement à travers les intéractions qu’il a avec ce dernier.

Avec tout ceci, vous devriez avoir une bonne base concernant l’intuition derrière les processus de décision markoviens qui construisent les premières pierres de l’édifice du reinforcement learning.

IA-Z

Processus de décision markoviens (MDPs)

Contents

Processus de décision markoviens (MDPs)¶

Eléments d’un MDP¶

Notation formelle¶

Comportement de l’agent dans un MDP¶

Episodique vs Continu¶

Tâches épisodiques¶

Tâches continues¶

Facteur de dévaluation \(\gamma\)¶

Conclusion¶

Sources¶